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多 核 / 众 核 系 统 上 的 并 行 编程 语言 
BRA ESE 户 兴 敬 唐 生 林 
1 引言 


半导体 技术 的 不 断 进步 使 得 单位 芯片 面积 集成 的 晶体 管 数 目 
拟 统 的 通过 提高 主 频 、 增 加 结构 的 复杂 度 来 追求 性 能 提升 的 道 


杂 性 等 方面 的 限制 ， 


经 不 能 充分 利用 丰富 的 晶体 管 资 源 提高 应 用 程序 的 性 能 。 
是 出 多 核 / 众 核 技术 ， 通 过 提供 丰富 的 片 内 并 行 性 (包括 线程 级 并 行 和 数据 3 
芯片 的 处 理 能 力 。 目 前 ， 多 核 处 理 器 已 逐渐 成 为 n 


核 的 编程 方式 的 研究 势 在 必 行 。 


算 、 存 储 及 互 连 等 体系 结构 
提供 的 资源 ， 高 效 正 确 地 完成 软件 操作 。 目 前 ， 


HMPP)， 或 是 适应 某 种 应 用 
言 的 形式 提供 


给 程序 员 来 表 :; 


添加 语法 制 寻 或 扩展 少量 
的 功能 模块 ， 巾 入 并 行 框架 并 行 执行 。 


关键 字 ; 还 有 的 提供 一 个 3 


场 上 主流 的 通用 芯片 ， 进 行 面 


不 


新 增长 。 但 是 由 于 功 耗 、 


编程 模型 是 保障 易 编程 性 和 高 效 性 的 前 提 , 是 体系 结构 和 应 用 之 间 的 桥梁 ， 向 上 
的 细节 ， 同 时 提供 编程 所 需 的 硬件 扣 
十 对 片上 
正 处 在 百花 齐 放 的 阶段 。 编 程 模 型 和 语言 有 的 是 为 某 种 体系 结构 量 身 
领域 的 迫切 需求 (如 ErLang, Streamlt); 编程 模型 可 以 以 编程 语 


] 象 文 持 ; 
行 系统 的 编程 模型 和 语言 


向 下 充分 利用 硬件 


路 , 已 


业界 转变 了 体系 结构 的 设计 思路 ， 
行 等 ) 来 提高 
向 多 核 / 众 


隐藏 运 


的 研究 


定制 (如 CUDA, 


达 并 行 ， 也 可 以 使 用 库 、 模 板 等 形式 ， 多数 是 在 现 有 编程 语言 上 


与 过 去 相 比 ， 多 核 、 众 核 平 台 上 并 行 编程 面临 着 若干 新 的 挑战 : 


应 用 的 行为 特征 更 加 复杂 、 应 用 有 新 需求 


行 框架 , 程序 员 使 用 现 有 语言 编写 核心 


传统 的 并 行 编程 语言 面 对 的 是 少数 专家 用 户 ,编程 层次 低 、 产 能 低 ， 常 常 只 适合 表达 吏 


并 行 性 也 具有 更 大 的 不 


递归 等 控制 结构 上 。 编 程 语言 需要 发 抉 各 种 非 静 态 的 3 


任务 图 


Fo WY 


， 数 据 中 心 已 成 为 和 水 、 电 


mi 


高 度 并 发 负载 和 海量 数据 处 理 的 需求 ， 这 给 编 各 


行 模式 ， 比 如 流水 线 并 行 、 从 


语言 提出 新 的 需要 。 


可 编程 性 


大 多 数 已 有 软件 都 是 串 行 程序 ， 并 且 规 横 
域 。 如 何以 最 小 


的 代价 修改 当前 已 有 的 串 行 代码 使 其 能 够 在 3 


行 系统 上 实现 最 大 的 性 


成 为 业界 最 为 关心 的 问题 。 研究 具有 后 向 兼容 怕 
可 实际 应 用 的 安全 的 并 行 化 是 人 们 所 期 待 的 。 


对 于 新 的 并 行 应 用 , 用 户 希 望 以 较 高 的 抽象 层次 开发 并 行程 序 , 尽 可 能 少 地 参与 3 


FE 的 语言 扩展 , 提出 有 效 的 工 


态 的 粗 粒度 并 行 性 。 而 在 多 核 普及 的 今天 , 应 用 往往 要 面 对 动 态 不 规则 的 数据 结构 ， 程 序 的 


规则 性 和 动态 性 ， 比 如 出 现在 while 循环 中 、 结 构 化 的 代码 段 之 间 、 


FE 务 树 、 


样 重要 的 基础 设施 ， 越 来 越 多 的 应 用 需要 满足 


E 营 庞大 ， 分 布 在 桌面 、 和 嵌入 式 以 及 服务 器 领 


能 提升 


和 技术 


以 支持 


度 、 存 储 管理 、 数 据 同 步 和 通信 ， 并 减少 3 
反 、 死 锁 、 顺 序 违反 等 。 


语言 设计 方面 主要 有 
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发 和 并 行 相关 的 错误 ， 比 如 数据 竞争 、 原 子 性 韦 


两 类 对 策 : (1). 提供 隐 式 并 行 性 的 表达 。 比 如 ， 提 供 基于 高 


行 调 


级 数据 


多 核 / 众 核 系统 上 的 并 行 编程 语言 


类 型 的 并 行 操作 (如 向 量 操作 )、 面 向 领域 的 语言 和 框架 ，(2). 提供 各 种 语言 层 或 者 库 的 高 
层 抽象 ， 简 化 并 行 性 /局 部 性 的 描述 和 映射 ， 同 时 避免 某 些 并 发 错误 的 发 生 。 具 体 包括 ， 存 
储 和 计算 的 逻辑 单位 和 物理 单位 分 离 , 提供 丰富 的 并 行 模板 或 并 行 结构 ,提供 高 层 的 同步 机 
制 ， 提 供 线程 安全 的 并 发 容器 和 函数 式 语言 特征 等 。 


- ”复杂 的 存储 和 互 连 结构 


多 核 体系 结构 下 ， 各 个 部 件 之 间 通 过 互连网 络 来 实现 数据 通信 。 但 通信 的 带宽 、 延 人 运 以 
及 同步 方式 存在 差异 。 为 了 满足 众多 小 核对 于 访 存 延 迟 和 带宽 的 需求 , 存储 系统 通常 具有 更 
加 复杂 的 层次 特性 。 如 何 利用 好 这 些 容量 不 同 、 速 度 各 异 以 及 具有 不 同 共享 特性 的 存储 空间 ， 
并 通过 通信 延迟 的 消除 或 隐藏 、 流 量 控制 、 带 宽 以 及 通信 同步 方式 等 的 高 效 优化 利用 ， 对 于 
程序 的 性 能 有 非常 大 的 影响 。 


特色 加 速 部 件 是 对 某 类 算法 进行 优化 ， 是 提高 应 用 程序 性 能 、 降 低能 耗 的 一 种 方法 。 这 
些 特色 加 速 部 件 包 括 支 持 通 用 计算 的 图 形 处 理 器 (General Purpose Graphic Processing Unit, 
GPGPU), IBM 的 CELL 芯片 、 数 字 信 和 号 处 理 器 (DSP)、 网 络 处 理 器 (Network Processor) 等 。 
通用 GPU 的 一 些 实例 包括 Nvidia 和 AMD 生产 的 GPU 〔〈 集 成 或 者 独立 的 )、 舱 入 式 领域 的 
PowerVR 移动 图 形 核心 、 英 特 尔 的 Knights Ferry 等 。 通 用 GPU 常 作为 协 处 理 器 ， 具 有 与 主 
CPU 不 一 样 的 指令 集 和 应 用 程序 二 进 制 接口 (Application Binary Interface，ABI)、 分 离 的 存 
储 , 构成 了 计算 平台 上 分 布 式 的 异 构 存储 空间 。 因 此 程序 员 需 要 确定 数据 在 各 个 存储 空间 的 
aya, 任务 在 不 同 计算 单元 上 的 分 配 和 调度 , 管理 存储 空间 的 分 配 与 释放 ,确定 数据 传输 的 
时 机 和 优化 以 及 维护 数据 的 一 致 性 ， 这 些 工作 给 程序 员 带 来 非常 大 的 挑战 。 


多 核 系统 上 数据 移动 是 影响 性 能 和 功 耗 的 重要 因素 。 一 些 编程 接口 和 语言 (如 MPI 和 
PGAS) 采 用 显 式 的 数据 分 布 ， 而 另 一 些 语言 (如 TBB) 通过 任务 调度 和 隐 式 数据 分 布 的 结 
合 来 实现 数据 重用 ， 还 有 一 些 语言 (如 sequoia) 则 不 仅 考虑 水 平方 向 的 数据 布局 ， 也 管理 
垂直 方向 的 数据 移动 。 


- ”并 行 体系 结构 的 多 样 性 与 应 用 的 性 能 可 移植 性 


通用 编译 器 产生 的 代码 通常 不 能 有 效 地 利用 处 理 器 资源 , 而 程序 员 手 工 调 优 又 需要 花费 
大 量 的 时 间 和 精力 。 在 这 样 的 背景 下 ,出 现 了 各 种 辅助 程序 员 对 应 用 程序 和 库 进 行 自动 调 优 
的 技术 。 多 核 体系 结构 的 设计 时 现 出 复杂 和 多 样 性 ， 使 程序 员 在 编写 程序 、 优 化 性 能 、 进 行 
路 平台 移植 时 面临 更 多 压力 和 困难 。 如 何在 并 行 编程 语言 的 设计 中 支持 自动 性 能 调 优 是 实现 
路 平台 的 高 性 能 可 移植 性 的 重要 课题 。 


本 文 将 从 遗产 代码 的 并 行 化 、 单 程序 流 多 数据 流 SPMD) 的 并 行 编程 接口 、 任 务 并 行 
的 语言 特征 、 异 构 平台 的 编程 框架 、 高 并 发 的 函数 式 语言 和 分 割 全 局 地 址 空间 PGAD 语 
言 等 方面 ， 介 绍 多 核 和 众 核 体系 结构 上 并 行 编程 语言 和 接口 的 现状 和 趋势 。 

2 ”遗产 代码 的 并 行 化 


本 小 节 介绍 两 种 并 行 化 的 方法 ， 一 个 是 以 制导 为 主 的 OpenMP 语言 ， 一 个 是 以 编译 技 
术 为 主导 的 DSWP 模型 。 


2.1 OpenMP 
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1997 年 颁布 的 OpenMP 标准 是 SMP' 体 系 结构 发 展 的 结果 ,语言 的 初衷 是 针对 稠密 的 数 
值 计算 应 用 的 并 行 化 问题 ， 所 以 主要 围绕 着 以 数组 访问 为 主 的 并 行 循环 。 到 今天 ，OpenMP 
已 经 成 为 共享 内 存 体系 结构 上 被 广泛 应 用 的 并 行 编程 语言 。2005 年 5 月 ，OpenMP2.5 统一 
了 Fortran 和 C/C++ 的 标准 规范 。2008 F, OpenMP 推出 了 3.0 的 语言 规范 ， 引 入 了 任务 的 
概念 ， 支 持 非 规则 的 循环 并 行 、 树 状 任务 图 的 并 行 。OpenMP 作为 一 个 事实 上 的 工业 标准 ， 
得 到 了 如 GCC、PGI、 微 软 VS2005、Open64、Sun 等 主流 编译 器 和 Totalview, PGDBG 等 
调试 器 的 广泛 支持 。 

OpenMP 的 机 器 抽象 是 对 称 多 处 理 机 ， 采 用 fork- join CFTR) 的 执行 模型 。 并 行 
域 是 OpenMP 语言 的 基本 并 行 结构 ， 由 当前 线程 创建 一 个 线程 组 ， 且 自己 成 为 主线 程 启动 
并 行 执行 。 并 行 域 的 结尾 处 有 隐 式 的 栅 障 (barrier) 同步 。OpenMP 提供 了 以 工作 共享 为 
基础 的 循环 并 行 、 静 态 任务 划分 的 支持 ， 并 在 OpenMP3.0 以 后 提供 动态 的 显 式 任务 申 ， 支 
持 非 计数 循环 和 递归 等 不 规则 并 行 性 。OpenMP 提供 放松 的 内 存 一 致 性 ， 用 户 负 责 描述 并 发 
单位 (比如 workshare( 工 作 分 担 ) 结构 、 任 务 (task) 结构 ) 的 数据 环境 (私有 或 者 共享 )。 


任务 概念 扩大 了 OpenMP 的 适用 面 。 任 务 是 当 线 程 遇 到 task 结构 或 者 并 行 结构 时 生成 
AY, 包括 了 可 执行 代码 和 对 应 数据 环境 。 并行 结构 中 会 生成 一 组 隐 式 任务 , 每 个 任务 被 调度 
到 一 个 线程 。 显 式 任务 是 可 推迟 执行 的 工作 单元 ， 它 在 同步 点 (barrier 和 taskwait) 
和 任务 区 的 开头 结尾 处 进行 动态 任务 调度 。task 被 调度 到 当前 绑 定 的 线程 组 上 ， 映 射 一 个 
新 任务 的 执行 或 者 恢复 一 个 挂 起 状态 的 任务 执行 ,图 1 示例 了 如 何 利用 显 式 任务 制导 进行 树 
遍历 。 需 要 注意 的 是 ， 如 果 没 有 taskwait 制导 ， 这 些 并 行 任务 的 执行 顺序 将 没有 任何 约 


struct node { void postorder_traverse( struct 
struct node *left; node *p ) { 
struct node *right; if (p->left) 
}; #pragma omp task 
extern void process(struct node // p is firstprivate by 
rys default 
extern void postorder postorder_traverse(p->left) 
_traverse(struct node *); p 
void traverse( struct node *root){ if (p->right) 
#pragma omp parallel #pragma omp task // p is 
#pragma omp single firstprivate 
postorder_traverse postorder_traverse(p->right 
(root); ); 
#pragma omp taskwait 
process(p); 
} 
图 1. 利 用 OpenMP 的 显 式 task 进行 树 遍 历 


HK. Single 制导 是 为 了 保证 每 个 任务 只 派生 一 次 。 并 行 结构 的 数据 共享 属性 有 三 个 决定 的 
层次 : 预先 确定 、 显 式 确定 、 隐 式 确定 。 任 务 概念 引入 后 ， 这 个 规则 也 变 得 愈 发 复杂 。 根 据 
OpenMP3.0 的 规定 ， 这 里 p 的 共享 属性 是 firstprivate。task 可 以 嵌 套 形成 树 型 层次 ， 
产生 动态 不 规则 的 细 粒 度 任 务 ， 由 于 task 的 调度 开销 比较 大 ， 西 班 牙 的 巴塞 罗 那 超级 计算 
中 心 提出 了 一 个 final 子 句 ”来 控制 孩子 task 的 融合 。 


1 Symmetric Multi-Processing， 对 称 式 多 重 处 理 架构 
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多 核 / 众 核 系 统 上 的 


F 行 编程 语言 


随 着 共享 处 理 器 上 并 行 性 的 增加 , OpenMP 原 有 的 一 层 循环 并 行 制导 已 经 不 能 满足 需求 


(比如 通用 GPU 上 提供 了 大 量 的 
句 使 其 能 对 多 层 髓 套 循环 进行 并 行 化 。 


行 性 )，OpenMP3.0 在 for 结构 上 增加 了 collapse 子 


OpenMP 的 机 器 抽象 是 对 称 的 多 处 理 器 ， 不 能 适应 通用 GPU Alix Ast MPSOC 平台 的 


分 离 存 储 的 特性 。 OpenMP 语言 规范 组 织 正在 考虑 引入 PGI Accelerator "针对 通用 GPU 的 语 


言 制 导 经 验 。 文献 []] 则 认为 动态 数据 流 模 型 更 


T StarSs 的 动态 机 币 
赖 关 系 ， 增 加 以 数据 为 ! 


心 的 task 同步 制导 


适合 分 布 存 储 的 系统 或 者 异 构 的 系统 。 它 代 
J, Æ task 上 增加 数据 输入 、 输 出 的 子 句 来 描述 指定 task 之 间 的 依 


开 增 加 设备 映射 的 子 句 。 


F 


OpenMP 在 共享 内 存 的 服务 器 上 具 
E 表 达 数 据 的 局 部 性 ， 也 


ap 


于 执行 模型 过 多 地 


有 较 高 的 普及 率 , 但 它 也 有 
依赖 全 局 同步 ，OpenMP 的 性 能 可 控 性 和 扩展 


些 明 显 的 不 足 。 由 于 不 


一 二 
im 


FS 


晶 是 对 于 一 些 复杂 的 应 用 , 为 了 设置 


OpenMP 编译 器 提供 


前 叫 thread checker (线程 核对 器 ))。 在 可 编程 性 方面 ,OpenMP 在 应 用 适 
新 兴 语 言 的 挑战 。 如 何 能 更 好 地 适应 新 兴 的 多 核 、 众 核 平台 ， 也 会 在 很 大 程度 上 影响 其 应 用 


wir =. 
Al) ER o 


2.2 DSWP 模型 


二 都 不 够 好 。 虽 然 原 则 上 ，OpenMP 只 需 对 是 
前 的 数 ] 
构 ， 并 同时 带 来 数据 竞争 等 难以 排查 的 错误 。 为 了 帮助 用 户 编程 ， 
些 正 确 性 检查 工具 , 比如 英特尔 的 Parallel Inspector (并 行 检查 器 )( 以 


行程 序 作 少量 改动 就 可 以 实现 程序 的 并 行 化 ， 
据 共 享 属性 ,可 能 需要 大 量 修改 原 有 的 数据 结 


各 个 硬件 三 商都 会 给 


用 面 方面 受到 众多 


DSWP“ 是 普林斯顿 大 学 的 计算 机 科学 和 电子 工程 系 的 学 者 于 2005 年 左右 推出 的 一 种 遗 


产 代 码 的 并 行 化 技术 。 流 水 是 一 种 在 处 理 器 结构 和 编译 器 指令 集 # 
上 ， 提 出 DSWP 这 种 并 行 执行 模型 。 并 主张 


型 ， 普 林 斯 顿 大 学 将 其 


E 广 应 用 到 线程 级 


通过 编译 分 析 技术 自动 划分 程序 
动 并 行 化 的 目的 。 


1 cost = 0; 
node = list->head; 
while(node) { 

ncost = doit(node); 


cost += ncost; 
node = node->next; 


(a) 循 环 


图 2. 


行 优化 中 广泛 使 用 的 模 


的 流水 段 , 并 产生 流水 段 之 间 的 通信 ,达到 对 非 规 则 程序 


(b) 程序 依赖 图 
箭头 表示 依赖 关系 ， 虚 线 表 示 形 成 依赖 环 


DSWP 并 行 循环 


DSWP 目前 主要 是 针对 C 程序 中 的 循环 ， 允 许 有 非 规则 的 数据 结构 和 较 复 杂 的 控制 流 。 


2 (a) 中 所 示 的 一 个 例子 是 如 何 针对 while 循环 ， 应 
编译 器 首先 分 析 各 语句 间 的 依赖 关系 ， 构 造 H 
PDG)， 程 序 依赖 图 中 包含 了 所 有 语句 间 的 数据 依赖 和 控制 依赖 ， 如 图 2 b) 所 示 。 然 后 编 


H 程 序 依赖 图 


] DSWP 技术 对 循环 进行 并 行 化 。 


(Program Dependence Graph, 


anal 


译 器 在 程序 依赖 图 中 构造 强 连 通 分 量 , 将 形成 依赖 环 的 语句 聚合 到 一 起 ,， 强 连通 分 量 便 是 分 


> Decoupled software pipelining， 解 耦 软 件 流水 线 
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配 线程 的 基本 单元 。 将 程序 依赖 


图 称 为 DAGscc。 上 所 有 的 强 连 通 分 量 按照 一 定 的 策略 蕊 
满足 流水 段 之 间 不 能 形成 依赖 环 。 


条 流水 线 ， 划 分 时 仍然 要 


信息 技术 快报 


Information Technology Letter 


图 中 的 每 个 强 连通 


| 分 到 
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音 分 量 合并 成 一 个 单 节 点 , 这 样 的 程序 依赖 
多 个 线程 上 ， 所 有 的 线程 形成 一 


3 示意 了 一 种 可 能 的 映射 : 


图 3 中 有 3 个 强 连通 分 量 , 映射 到 两 个 线程 上 。 
每 个 线程 相当 于 一 个 流水 段 。 在 DSWP 模型 中 , ph 
射 到 同一 线程 中 的 语句 自然 满足 了 串 行 语义 的 依 
赖 关系 (如 语句 3 和 6)， 不 必 产生 通信 代码 。 映 射 
到 不 同 线程 的 语句 间 由 于 并 行 执行 因此 要 产生 通 
= (如 语句 3 和 4, 3 和 5)， 通信 的 代码 | 编译 器 *Strongly Connected Component， 强 连接 分 量 
负责 插入 。DSWP 模型 的 一 个 重要 好 处 是 线程 间 通 图 3。 DSWP 构造 强 连 通 分 晶 
言 沿 流水 线 方向 单 向 流动 ， 不 会 形成 回路 ， 这 样 就 E seen 
避免 了 由 于 等 待 通信 而 造成 的 流水 线 停 法 。 和 线程 映射 示意 

但 是 DSWP 依赖 通信 队列 的 高 效 实现 , 甚至 需要 专门 的 硬件 支持 (produce 和 consume 
指令 )。 

在 以 上 介绍 的 DSWP 基本 模型 中 ， 并 行 度 受制 于 执行 最 慢 的 流水 段 。 另 外 ， 如 果 强 连 
通 分 量 的 数目 少 于 可 用 核 〈 线 程 ) 的 数目 ， 也 不 能 充分 利用 并 行 资源 。 因 此 普林斯顿 大 学 的 
研究 人 员 进 行 了 改进 ， 对 流水 段 进行 复制 以 提高 并 行 度 ， 称 为 Parallel Stage DSWP 
(PS-DSWP)"!, 

研究 人 员 为 了 辅助 编译 器 挖掘 出 更 多 的 并 行 性 ， 提 出 了 在 C 语言 中 增加 两 个 制导 : 


“commutative” fll« 


BAF SL, PEAS 
还 不 十 分 广泛 。 


ybranch”", 


流水 线 模型 是 一 种 
间 


íh 


动 分 析 程 序 , 按照 语句 


这 为 并 行 化 提供 了 一 种 很 好 的 思路 ,编译 器 可 以 挖 所 
合 ,， 从 而 有 机 会 结合 芯片 结构 做 更 多 性 能 优 
现 有 的 编译 器 对 C/C++ 分 析 的 精度 还 并 不 理想 ， 
发 表 的 结果 基本 都 是 基于 手工 3 


极 高 ， 


ENT o 


前 


AMH 


泛 使 


“commutative” pny 


J AUT ee 6 DSWP 的 看 
的 依赖 关系 把 程序 划分 成 若干 流水 段 ,然后 把 流水 段 映 射 到 线程 上 


一 个 函数 ， 表 明 该 函数 的 执行 次 序 
是 可 交换 的 ， 即 并 行 时 可 以 忽略 此 函数 带 来 的 依赖 。“ybranch (probability) iri 
该 条 件 在 一 定 的 频率 下 向 “TRUE” 方 向 跳 转 。 这 一 方法 目前 看 至 


二 一 个 


1 的 应 用 范围 


化 的 考虑 。 DSWP 的 了 


究 人 员 主 张 通 


重 粒 度 的 并 行 段 并 按 一 定 策略 进行 组 
主要 局 限 是 对 编 i 


过 编译 器 


Nu 


Pa lh BES 


数组 、 指 针 运 算 等 都 是 对 编译 分 析 的 


ELAR Ske 


行 变换 。 


| 
o 


3 


消息 传递 接口 MP 创建 于 1992 年 ， 
而 设计 的 编程 接口 , 目前 已 经 成 为 这 类 
方式 支持 进程 间 的 数据 交换 ， 提 供 
MPICH、LAM MPI 以 及 不 开 


消息 传递 接口 一 MPI 


动 变换 


FEF He 


成 为 实用 系统 还 


:难以 判 


它 是 针对 分 布 主 存 的 可 扩展 3 


行 计算 机 (比如 集群 ) 


系统 上 高 性 


pay 
He 


E 并 行程 序 设计 的 


MPI 表达 的 是 单程 序 流 多 数据 流 的 粗 粒 度 3 
在 通信 域 之 上 ， 


表达 进程 间 的 拓扑 组 织 。 


a Message Passing Interface, 


-种 基 了 


传递 的 


消息 
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Fortran 和 C 的 编程 接 


并 行程 序 设计 标准 


。MPI 的 典型 实现 包括 开 
源 的 Intel MPI 和 HP MPI 等 。2009 年 MPI-2.2 标准 发 布 。 


#f 行 性 ， 它 以 通信 域 的 方式 支持 进程 分 名 
建立 了 丰富 的 显 式 的 点 到 点 通信 机 秆 


MPI 以 库 的 
源 的 


有 实 标准 。 


H, IF 
阻塞、 


|, OF 


多 核 / 众 核 系统 上 的 并 行 编程 语言 


非 阻 塞 通信 ， 双 边 或 者 单 边 通信 ， 多 种 通信 模式 等 ; 针对 科学 计算 应 用 ， 它 特别 提供 了 丰富 
的 集合 通信 操作 。MPI 程序 具有 很 好 的 数据 局 部 性 ， 某 些 实验 表明 ， 在 多 核 结构 [上 MPI 
程序 在 大 部 分 情况 下 性 能 好 于 OpenMP 和 UPC. 


3.1 MPI 对 通用 多 核 系统 的 支持 和 优化 


随 着 多 核 的 普及 和 发 展 ,片上 核 数 越 来 越 多 ,MPI 和 线程 编程 的 混合 是 一 个 有 效 利用 多 
核 同 时 提高 应 用 性 能 扩展 性 的 方法 。 目 前 ，MPI Forum 正在 讨论 的 MPI-3® 特 别 关 注 了 SMP 
与 多 线程 的 混合 编程 ， 文 持 MPI+X 的 编程 方案 ， 提 供 了 MPI 与 X 之 间 的 外 部 调用 接口 ，X 
可 以 是 Pthreads, OpenMP 或 者 新 兴 的 编程 接口 如 TBB、 OpenCL, CUDA, Ct 以 及 UPC 
等 分 割 全 局 地 址 空间 (PGAS) 语言 。 混 合 编程 方案 能 充分 发 挥 MPI 和 X 两 种 编程 模型 各 
的 特长 ， 整 体 上 可 获得 良好 的 性 能 。 但是， 其 易 编 程 性 比较 差 。 这 里 同时 要 解决 的 一 个 问题 
是 如 何 使 MPI 实现 高 效 地 支持 多 线程 之 间 的 消息 并 发 。MPI 的 线程 安全 仍 存在 性 能 问题 一 
一 多 数 MPI 实现 不 是 线程 安全 的 。 文 献 [15] 研 究 了 降低 临界 区 粒度 ， 提 高 线程 安全 的 MPI 
的 实现 性 能 的 方法 。 文 献 [9]、[10] 提 出 TMPI， 其 中 每 个 MPI rank 是 一 个 线程 ， 采 用 编译 
变换 消除 全 局 量 ， 并 结合 运行 时 通信 优化 技术 ， 实 现 了 将 同一 SMP 节点 内 的 多 个 MPI 节点 
映射 到 同一 进程 内 的 多 个 线程 ， 获 得 了 较 高 的 MPI 性 能 ， 特 别 是 在 多 道 程序 运行 环境 下 性 


能 突出 。 


有 不 少 工作 涉及 MPI 在 SMP 节点 内 的 性 能 加 速 。 比 如 ， 文 献 [11] 通 过 修改 操作 系统 页 
表 映 射 策略 使 MPI 进程 除了 拥有 私有 地 址 空间 , 还 可 以 自由 读 写 同一 SMP 结 点 的 其 它 进程 
的 地 址 空间 ， 借 助 这 样 的 策略 提高 了 MPI 集合 通信 的 性 能 。 但 这 方法 依赖 于 具体 的 硬件 和 
操作 系统 ， 无 法 适用 于 更 多 的 场合 。 


3.2 媒 入 式 多 核 的 通信 标准 MCAPI 


目前 , 嵌入 式 处 系统 普遍 采用 多 核 架 构 ， 处 理 器 或 者 核 之 间 常 常 没有 存储 一 致 性 ， 存 在 
着 多 个 维度 上 的 异 构 ， 包 括 核 异 构 、 互 联 异 构 、 存 储 异 构 、OS 异 构 、 软 件 工 具 链 异 构 和 编 
星 语言 异 构 等 。 这 对 嵌入 式 多 核 系 统 的 应 用 编程 带 来 了 极 大 的 挑战 。 为 了 提高 开发 这 类 系统 
应 用 的 产能 ， 必 须 对 体系 结构 进行 抽象 ， 向 应 用 层 提供 统一 的 编程 接口 。 为 此 多 核 联盟 中 
制订 了 峙 入 式 系统 中 相近 分 布 的 核 和 /或 处 理 器 间 的 通信 和 同步 的 标准 化 应 用 编程 接 
MCAPI。 该 接口 独立 于 语言 、 处 理 器 和 操作 系统 ， 其 最 新 版 本 为 V2.015， 基 本 目标 是 提供 
极 高 的 性 能 ， 减 小 访 存 足 迹 。Poly-Messenger@/MCAPI 是 多 核 联 盟 MCAPI 的 一 个 商业 化 实 
现 。 


MCAPI 利用 多 核 芯片 互联 网 络 所 提供 的 低 时 延 通信 接口 ， 提 供 三 种 通信 模式 : 消息 、 
包 和 标量 ， 并 在 负载 的 灵活 性 ， 允 许 动态 改变 接收 者 、 设 置 优先 级 以 及 配置 等 方面 提供 了 灵 
活 的 选择 。MCAPI 支持 各 种 各 样 的 服务 质量 ， 每 条 消息 都 能 有 一 个 优先 级 ， 允 许 将 部 分 或 
全 部 通道 映射 到 硬件 上 ， 也 能 通过 对 有 连接 的 通道 指定 属性 来 支持 零 找 贝 。 与 MPI 相 比 ， 
MCAPI 在 扩展 性 和 容错 方面 有 相似 的 目标 ， 但 有 更 强 的 约束 ,在 应 用 领域 方面 通用 性 更 强 ， 
灵活 性 上 稍 差 。 遵 照 MCAPI 规范 实施 嵌入 式 系统 应 用 的 开发 大 大 提高 了 可 移植 性 。 
3.3 成 功 经 验 

深入 思考 MPI 的 成 功 现象 , 对 于 设计 新 的 实用 的 并 行程 序 设计 语言 有 很 大 的 借鉴 意义 。 
MPI 的 成 功 来 自 以 下 8 条 优势 : (1). 语言 规范 开放 ; (2). 可 移植 性 非常 好 ，(3). 在 存储 层次 
的 管理 、 组 通信 等 方面 具有 高 性 能 ，(4). 简单 : MPI-2 只 有 275 个 函数 ， 对 于 一 般 的 MPI 
程序 ， 只 需要 很 少 的 库 函 数 就 够 了 。MPI 在 概念 引入 上 也 非常 精简 ， 比 如 通信 域 和 数据 类 型 
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的 概念 处 理 ; (5). 结构 模块 化 : 通信 


信息 技术 快报 


Information Technology Letter 


域 的 封装 机 制 支 持 基 于 组 件 的 软件 


构造 ， 从 而 使 消息 传递 的 应 用 程序 ， 


编译 器 、 调 试 器 、profiler  、 多 线程 程序 有 效 : 
强 ， 能 描述 任意 复杂 的 并 行程 序 行为 ，(8). 怕 
可 以 预见 的 是 ，MPI 将 继续 流行 。 在 Fortran 和 C 语言 之 外 ， 已 经 


MPI 实现 语言 ， 支 持 Python, Ruby, Java 以 及 微软 的 CL。 但 是 ，MPI 程序 
日 单程 序 流 多 数据 流 的 执行 横 型 与 多 核 体 系 结构 不 匹配 ， 并 不 是 理想 的 编程 语言 。 


4 任务 并 行 的 支持 


并 行 编程 语言 的 一 个 重要 发 展 趋势 是 


可 以 不 直接 调 


Vol.10 No.1 
Jan. 2012 


发 、 文 持 专 用 库 的 


J MPI 函数 : (6). 互 操 作 性 好 。 可 以 与 
弛 实现 互 操 作 ; (7). 语义 完备 。 表 达能 力 非 常 
FE 能 透明 。 


8 现 了 很 多 非 传统 的 
的 开发 效率 较 低 ， 


用 巡 辑 任务 代替 线程 , 实现 对 应 用 程序 中 计算 的 虚 


拟 化 。 异 步 任务 的 提出 改善 了 编程 效率 ， 也 成 为 实现 容错 的 重要 手段 。 同 时 ， 并 行 编程 语言 


有 自己 的 运行 时 系统 ， 负 责 用 户 空间 上 的 任务 调度 ， 而 操作 系统 只 负责 内 核 空 间 上 的 线程 调 


度 。 这 样 ， 并 行 语言 的 运行 时 能 利用 应 月 


等 任务 调度 技术 也 有 助 于 应 用 程序 的 负载 平衡 。 我 们 介绍 两 个 : 


程序 的 高 层 信息 进行 有 效 的 调度 。 


型 的 语言 : 


前 者 是 一 个 并 行 库 ; 后 者 则 基于 一 个 统 


4.1 TBB 与 TPL 


Intel® Threading Building Blocks (TBB, 线程 构建 模块 )09 是 


的 机 器 抽象 ， 以 实现 跨 平 台 的 性 能 可 移植 性 。 


Leah, FES BRL 
TBB 和 Sequoia. 


| 英特尔 公司 开发 的 一 个 并 


行 库 , 它 运行 于 共享 存储 的 多 核 平 台 , 可 以 在 Windows, Linux 和 Mac OS X Systems 上 运行 。 


TBB 是 一 个 C++ 的 并 行 库 ， 通 过 提供 3 
分 配 函 数 来 支持 高 效 的 并 行 。TBB 中 使 


算法 来 支持 并 行 ， 提 高 了 可 编程 性 。 


另外 ， 微 软 .NET 4.0 新 提供 了 一 个 3 
TPL 与 TBB 类 似 ， 表 达 形 式 和 任务 调度 


TBB 给 用 户 提供 一 套 并 行 算法 或 # 


(cache )， 使 编写 并 行程 序 变 得 容易 。 图 4 是 使 用 


逻辑 并 行 结构 代办 线程 ， 


行 算法 模板 、 并 行 容 器 、 同 步 原 语 、 可 伸缩 的 内 存 


行 线程 库 Task Parallel Library(TPL， 任 务 并 行 库 )， 


并 利用 并 发 集合 和 并 行 


算法 都 与 TBB 基本 一 致 ， 此 处 就 不 再 单独 介绍 了 。 


parallel_for 是 一 个 并 行 模板 , 在 一 个 可 划分 的 迭代 空间 (range) 上 进行 并 行 的 归 约 操作 。 


局 部 归 约 、 全 局 归 约 (join)、 


归 约 操作 的 具体 行为 由 对 象 sf 指定 ， 对 应 的 类 必须 包括 : 


行 模 板 ， 调 度 算 法 负责 负载 平衡 和 高 效 利 用 缓存 
TBB 编写 并 行 求 和 程序 的 代码 示例 。 


析 构 、 分 裂 构造 四 个 方法 。 这 里 blocked_range 模板 是 一 个 可 以 进行 递归 划分 的 半 开 区 
域 。 实 际 上 ， 高 层 的 循环 模板 中 隐 含 着 任务 调度 器 ， 隐 藏 了 调度 器 的 复杂 性 。TBB 除了 提 


供 传统 的 循环 并 行 的 模板 ， 也 支持 流水 线 等 常见 的 并 行 模 式 。 


如 果 程 序 员 无 法 用 高 层 模板 表达 某 个 算法 ， 则 可 以 利用 任务 组 的 文 持 ， 


度 器 的 接口 函数 ， 来 使 这 个 算法 并 行 化 。 
于 TBB 库 中 的 task 类 创建 的 一 个 对 象 实例 ， 而 不 是 | 
序 中 的 计算 调度 问题 就 转变 为 对 任务 的 调度 。TBB 在 
Wik: 指定 grainsize (粒度 粗细 ) 或 者 利 
数据 的 分 布 也 支持 隐 式 的 数据 分 布 ， 优 化 程序 的 局 部 性 ， 提 高 程 


TBB 任务 调度 器 运用 了 Cilk 的 任务 礼 取 调 度 技术 来 保障 负载 平衡 。TBB 里 的 任务 调度 
是 “不 公平 的 ”。 操 作 系 统 中 线程 调度 典型 的 做 法 是 分 发 时 间 片 ， 这 种 分 发 是 “公平 的 ”， 因 为 


© 筛选 器 或 性 能 分 析 器 
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操作 系统 管理 


或 者 调用 任务 调 


TÆ TBB 计算 的 逻辑 单元 ， 妊 


E 应 用 程序 中 是 基 


Ee 序 性 能 。 


的 对 象 。 这 样 应 用 程 
语言 层面 提供 了 两 种 划分 任务 粒度 的 
划分 器 ， 从 而 使 TBB 既 支 持 用 户 显 式 定义 


多 核 / 众 核 系 统 上 的 并 行 编 程 语 


Dil 


这 是 一 个 在 不 知道 程序 的 高 级 别 组 织 形式 下 最 安全 的 策略 。 基 于 任务 编程 时 , 任务 调度 有 应 
用 的 高 层 信息 ,所 以 可 以 为 了 效率 而 牺牲 公平 性 。 实际 上 ， 它 经 常 延 述 启动 一 个 任务 直到 进 
程 确实 要 用 到 它 为 止 。 


TBB 使 用 细 粒 度 锁 或 无 锁 〈lock-free) 技术 等 方法 实现 并 发 容器 。 这 样 多 个 线程 可 以 安 
全 地 并 发 访问 共享 数据 ， 同 时 能 得 到 并 行 加速 比 。 但 并 发 容器 是 有 代价 的 ， 比 常规 STL 容 
器 开销 高 。 为 了 解决 并 发 环境 中 内 存 分 配 的 瓶 开 ，TBB 中 每 个 线程 有 一 个 内 存 分 配器 ， 代 
#* malloc/realloc/free 函数 调用 和 new/delete 操作 ,TBB 提供 两 种 内 存 分 配 模板 ， 
scalable_allocator<T> 和 cache_aligned_allocate<T>.TBB 的 同步 原 语 主要 包 
括 互 斥 执行 和 原子 操作 。 Æ TBB 中 ,， 互 斥 执行 是 由 互 斥 体 和 锁 实 现 的 。 互 斥 体 是 一 个 对 象 ， 
线程 可 以 获得 互 斥 体 上 的 锁 ， 但 每 次 只 能 有 一 个 线程 获得 ， 其 他 线程 必须 等 待 锁 被 释放 。 
TBB 中 用 原子 操作 代替 部 分 互 斥 执 行 ，atomic<T> 用 机 器 指令 实现 原子 操作 。 


class SumFoo { 
float* my_a; 
public: 
float my_sum; 
void operator() (const blocked_range<size_t>& r) { 
float *a = my_a; 
float sum = my_sum; 
size_t end = r.end(); 
for (size_t i=r.begin(); i!=end; i++) 
sum += Foo(a[il]); 
my_sum = sum; 
} 
SumFoo (SumFoo& x, split) : my_a(x.my_a), my_sum(0) {} 
void join (const SumFoo& y) {my_sum += y.my_sum;} 
SumFoo (float a[]) : my_a(a), my_sum(0) {} 


> 


. float ParallelSumFoo (const float a[], size_t n) 

a4 
SumFoo sf(a); 
parallel_reduce (blocked_range <size_t> (0, n), sf); 
return sf.my_sum; 


图 4.TBB 实现 的 并 行 求 和 


TBB 是 按 C++ 的 模板 库 形 式 给 出 所 有 接口 函数 的 ， 容 易 被 C++ 程序 员 接 受 ， 丰 富 的 并 
行 算法 和 并 发 容器 也 使 其 具有 较 高 的 编程 层次 。TBB 基于 任务 表示 ， 能 表达 任务 和 数据 两 
种 并 行 模式 ， 适 用 于 共享 内 存 编程 的 多 种 应 用 。TBB 的 动态 任务 调度 具有 好 的 性 能 潜力 。 
TBB 在 2006 年 推出 ， 至 今 还 在 不 断 完善 ， 正 在 走向 成 熟 。 英 特 尔 的 ArBB* 的 运行 时 系统 是 
用 TBB 写 的 。TBB 并 且 作 为 Intel Parallel Studio 〈 并 行 编程 工具 ) 和 Intel Threading Tools 


$ Array Building Block， 英 特 尔 最 新 推出 的 并 行 编程 技术 
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《线程 工具 ) 的 一 部 分 ， 提 供 一 整套 并 行程 序 解决 方案 。 


4.2 Sequoia/Sequoia++ 


Sequoia 编程 模型 在 2006 年 左右 由 斯 坦 福 大 学 提出 , 其 设计 目标 是 使 用 户 能 更 方便 地 编 
写 存储 层次 敏感 的 并 行 应 用 程序 , 并 使 其 在 不 同 存储 层次 的 计算 平台 之 间 具 有 性 能 的 可 移植 
性 。Sequoia 最 初 是 在 C 语言 基础 上 扩展 而 成 ， 后 来 斯 坦 福 在 Sequoia 基础 上 做 了 进一步 语 
言 扩 展 ， 包 含 了 一 些 C++ 的 语言 特性 ， 并 改称 为 Sequoia++。 因 为 两 者 在 并 行 扩 展 部 分 几乎 
一 致 ， 所 以 后 面 统称 为 Sequoia, Hif, Sequoia 编程 模型 支持 的 平台 包括 多 种 多 核 / 众 
核 平 台 及 其 集群 ， 例 如 Cell、PS3、 通 用 多 核 、Roadrunner、 集 群 (站 。 此 外 ，Sequoia 将 来 也 
会 支持 通用 GPU FEP, 


Sequoia 编程 模型 的 机 器 抽象 是 一 棵 存储 层次 树 ""。 存 储 层 次 抽象 树 的 每 一 层 可 能 是 托 
管 、 共 享 或 者 虚拟 的 存储 。 托 管 表示 这 一 层 由 操作 系统 管理 ,例如 人 硬盘， 共享 表示 人 处理 单元 
可 以 利用 这 一 层 进行 共享 通信 ; 虚拟 存储 不 对 应 于 具体 的 物理 存储 体 , 只 是 将 子 节点 统一 起 
来 。 这 样 ，Sequoia 既 支 持 垂 直通 信 ， 也 能 支持 同 层 节 点 之 间 的 横向 通信 


Sequoia 的 核心 原则 就 是 让 程序 员 控制 程序 中 的 局 部 性 和 通信 。 具 体 的 方法 就 是 把 这 两 
个 因素 都 包装 在 一 个 任务 中 , 并 把 源 代码 与 机 器 映射 相关 信息 相 分 离 ,让 程序 员 实现 对 于 局 
部 性 和 通信 敏感 的 算法 。Sequoia 鼓励 采用 分 治 法 求解 应 用 。Sequoia 程序 可 以 看 成 是 一 个 任 
务 的 集合 。 每 个 任务 是 一 个 函数 ， 函 数 只 能 访问 其 参数 或 者 其 局 部 数据 。 这 保证 了 Sequoia 
不 同 任务 的 访 存 空间 是 相互 隔离 的 ， 防 止 发 生 数据 竞争 。 


1 void task matmul::inner ( in float A[M][P], in float B[p][N], Inout 
float C[M][N] ){ 
// Tunable parameters specify the size of subblocks of A, B, and 
C. 
tunable int U; tunable int X; tunable int V; 
// partition matrices into sets of blocks using regular 2D 
chopping. 
blkset Ablks rchop( A, U, ); 
blkset Bblks rchop( B, X, ); 
blkset Cblks rchop( C, U ) 
// compute all blocks of C in parallel 
mappar( int I = 0 to M/U, int j = © to N/V ) { 
mapreduce ( int k = © to P/X ) { 
// Invoke the matmul task recursively on the subblocks of A, 
B and C 
matmul ( Ablks[i][k], Bblks[k][j], Cblks[i][j] ); } } } 


图 5. 和 矩阵 乘 的 Sequoia 程序 示例 


图 5 是 一 个 Sequoia 的 矩阵 乘 示 例 。Tunable 变量 是 体系 结构 相关 的 重要 变量 ， 其 数 
值 是 影响 应 用 性 能 的 重要 因素 。Tunable 变量 从 机 器 映射 文件 得 到 其 数值 ， 在 编译 时 作为 
常数 被 使 用 。 机 器 映射 文件 定义 任务 到 各 个 存储 层 上 的 映射 ， 其 中 包括 Tunable 变量 、 数 
据 找 贝 等 存储 调度 上 的 优化 操作 制导 〔 例 如， 是 否 需 要 拷贝 数据 、 是 否 采 用 双 缓 冲 等 ;， 机 
器 映射 文件 为 用 户 提供 了 一 个 针对 具体 硬件 平台 优化 程序 性 能 的 手段 。 这 样 Sequoia 程序 在 
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层次 存储 敏感 的 体系 结构 上 能 追求 跨 平 台 的 最 优 性 能 ， 并 具有 较 好 的 可 编程 性 。 对 于 数据 并 
行 ，Sequoia 提供 了 rchop、ichop 5 gather 等 数据 分 布 手段 , 用 mappar、mapreduce 
与 mapseq 等 表达 循环 并 行 201。.Sequoia 还 提供 两 种 同步 1, 分 别 是 WaitTask 4 Barrier 
函数 。 前 者 是 父 任务 等 待 子 任务 ， 后 者 是 在 隶属 于 同一 父 任务 的 某 个 子 任务 集合 上 的 同步 ， 


并 要 求 该 子 集 内 


的 线程 编号 必须 是 连续 的 。 


Sequoia 最 近 增加 了 对 不 规则 应 用 的 任务 并 行 的 支持 请 ， call-up 支持 子 任务 调用 在 


其 父 任务 上 的 方法 并 在 父 任 务 的 地 址 空间 上 完成 该 计算 ，spawn 支持 任务 派生 。 因 此 ， 
Sequoia 除了 数值 计算 领域 ， 也 开始 支持 动态 非 规则 的 应 用 。 


Sequoia 通过 将 存储 层次 暴露 给 用 户 ， 能 够 适应 多 核 平台 上 存储 层次 不 断 增加 的 趋势 ， 


可 以 很 好 地 挖掘 机 器 性 能 。 在 正确 性 方面 ，Sequoia 需要 用 户 指 定 任 务 所 需要 的 数据 集 并 只 
使 得 子 任务 之 间 相 互 隔 离 ， 避 免 了 数据 竞争 。 在 编程 效率 与 可 移植 性 方面 ， 


文 持 垂 直通 信 ， 


递归 分 治 的 方法 对 应 用 程序 的 编写 有 一 定 的 局 限 性 。Sequoia 源 程序 是 机 器 无 关 的， 程序 到 
机 器 之 间 的 映射 是 通过 机 器 映射 文件 来 决定 的 , 并 可 以 在 该 文件 中 给 出 通信 优化 制导 、 数 据 
拷贝 /分 块 参 数 来 优化 性 能 20， 因 此 移植 一 个 Sequoia 程序 到 不 同 的 平台 ， 只 需要 重新 编写 
具有 较 好 的 可 移植 性 。 


机 器 映射 文件 ， 


综 上 所 述 ，Sequoia 便于 在 存储 层次 明显 的 平台 上 编写 高 性 能 的 并 行程 序 ， 具 有 较 好 的 


可 移植 性 ， 但 是 
与 运行 时 环境 。 


其 应 用 的 适用 面 还 比较 局 限 。 目 前 ，Sequoia 已 经 有 一 个 实验 性 质 的 编译 器 


5 ” 异 构 平台 的 编程 框架 


通用 GPU 等 众 核 处 理 器 的 发 展 引 起 用 户 的 很 大 关注 。 各 种 编程 接口 和 编程 系统 应 运 而 
生 ， 比 如 NVIDIA 的 CUDA (已 经 同时 支持 C 语言 和 Fortran) 、 英 特 尔 推出 的 ArBB™、 
专门 针对 流 式 应 用 的 StreamIT 以 及 AMD 公司 的 Brook+、PGI 提出 的 高 层 编程 接口 PGI 
Accelerator21 和 CAPS 公司 的 HMPPBI。 其 中 ，HMPP 和 PGI Accelerator 都 是 基于 C/Fortran 
的 语言 制导 的 扩展 , 适合 遗产 代码 到 异 构 平台 的 迁移 ， 人 允许 用 户 指出 哪 部 分 计算 在 加 速 器 上 
执行 《映射 )， 人 允许 用 户 描述 针对 加 速 器 的 数据 移动 〈 分 配 、 移 入 、 移 出 ， 以 及 元 余 移 动 的 
删除 ) 和 调度 优化 ， 并 通过 指定 线程 分 组 拓扑 、 循 环 属 性 和 循环 变换 的 细节 等 参数 优化 加 速 


器 的 生成 代码 。 在 这 些 编程 接口 中 ，OpenCL 作为 产业 界 的 标准 而 受到 更 多 的 关注 。 


5.1 OpenCL 


放 计算 语 
等 多 核 、 众 核 处 


言 OpenCL (Open Computing Language) 是 面向 包括 CPU. GPU, Cell, DSP 


时 器 的 异 构 计算 平台 ， 针 对 通用 计算 的 一 个 开源 、 免 费 的 并 行 编程 标准 。 它 


目前 业界 主要 的 


由 苹果 公司 首先 发 起 , 之 后 由 开发 组 织 Khronos 负责 协调 制定 OpenCL 规范 、 架 构 等 标准 。 


图 形 、 藤 入 式 和 桌面 计算 相关 的 便 件 厂商 都 是 OpenCL 的 成 员 。OpenCL 是 


基于 C99 的 扩展 ，2008 年 底 推出 语言 规范 1.0 版 ，2011 年 11 月 推出 了 语言 规范 的 1.2 版 。 


OpenCL 刚刚 推出 不 入， 就 得 到 了 业界 很 多 公司 ， 如 AMD, R, NVIDIA, WW VIA 


(视频 处 理 蕊 片 


) 和 IBM (Power 芯片 ) 等 的 支持 。 苹 果 的 下 一 代 操 作 系 统 Mac OS X Snow 


Leopard 和 重要 的 移动 图 形 及 视频 处 理 器 PowerVR 已 宣布 要 文 持 OpenCL, 


OpenCL 的 机 器 抽象 包含 一 个 主机 和 一 个 以 上 的 OpenCL 设备 。 后 者 具有 层次 的 组 织 结 


构 ; 第 一 层 是 计算 单元 (CU 或 者 compute units) ; 再 进一步 分 为 更 多 的 处 理 单元 (PE 或 者 
processing elements) 。 主 设备 以 命令 提交 的 形式 ， 让 设备 内 的 PE 执行 对 应 的 计算 。CU 内 
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的 PE 共享 指令 流 〈 锁 步 执行 ) ， 或 者 每 个 PE 作为 一 个 单程 序 流 多 数据 流 执行 单位 。 


OpenCL 程序 包括 了 主机 程序 和 Kernel 程序 , 前 者 规定 后 者 的 设备 上 下 文 并 控制 后 者 的 
HUT. Kernel 定义 在 一 个 N 维 索引 空间 CNDRange) 上， 该 空间 上 的 每 个 点 的 计算 对 应 一 
个 kernel 实例 (work-item)， 多 个 work-item 分 组 构成 work-groups， 从 而 可 发 掘 层 
次 的 数据 并 行 性 (图 6 给 出 了 向 量 点 积 的 GPU 端 代 码 ), OpenCL 的 任务 并 行 是 指 每 个 kerel 
都 不 与 任何 其 它 索 引 空 间 有 依赖 关系 ， 用 户 通过 使 用 向 量 数据 类 型 ， 或 者 将 任务 压 入 设备 

(device) 的 任务 队列 来 实现 任务 并 行 。 任 务 的 识别 和 任务 到 设备 的 映射 需要 程序 员 静 态 完 
成 。 


OpenCL 实现 的 是 一 种 放松 一 臻 性、 共享 存储 的 模型 多 。 对 设备 的 存储 层次 做 了 统一 的 
抽象 , 比如 kernel 可 以 访问 三 个 层次 上 的 私有 (Private) 存 储 、 局 部 (local) 存 储 、 常 量 (constant) 
存储 、 全 局 (global) 存储 。 用 户 需要 显 式 地 声明 数据 的 存储 类 型 ， 显 式 地 在 不 同 存储 体 之 
间 移 动 数据 。 同 组 的 任务 可 以 通过 局 部 存储 器 和 全 局 存储 器 进行 栅 障 (barrier) 同步 。 不 同 
组 的 任务 不 能 在 同一 个 kernel 内 通信 ， 只 能 通过 全 局 存储 器 通信 。 


__kernel void DotProduct (__global float* a, _ global float* b, 
__ global 
float* c, int iNumElements) { 
// find position in global arrays 
int iGID = get_global_id(0); 
if (iGID >= iNumElements){ // bound check 
return; } 

int iInOffset = iGID << 2; 
c[iGID] = a[iInOffset] * b[iInOffset] 

+ a[iInoffset + 1] * b[iInOffset + 1] 

+ a[iInoffset + 2] * b[iInOffset + 2] 

+ a[iInoffset + 3] * b[iInOffset + 3]; 


2 
3 
4 
5 
6 
7 
8 
9 


图 6. 向 量 点 积 的 GPU 端 代码 


OpenCL 提供 了 一 个 运行 时 的 支撑 库 *， 程 序 员 通 过 调用 相关 的 应 用 程序 接口 CAPI) 
函数 实现 CPU 与 GPU 间 的 同步 和 数据 传输 、GPU 显存 上 的 存储 管理 、 设 备 上 下 文 管理 、 
kernel 调用 等 。 


OpenCL 标准 制定 的 时 间 还 比较 短 ， 标 准 仍 在 不 断 的 完善 中 ， 比 如 还 没有 考虑 Fortran 
的 支持 。OpenCL 作为 一 个 标准 ， 其 未 来 的 发 展 趋势 取决 于 业内 参与 的 厂商 。NVIDIA 对 
CUDA 的 工具 链 支 持 已 经 非常 成 熟 。 由 于 OpenCL 与 CUDA 的 相似 度 非常 高 ， 两 者 存在 竞 
争 性 。 如 果 OpenCL 在 多 种 不 同 的 异 构 平台 上 都 有 比较 好 的 支持 ， 作 为 商业 标准 的 OpenCL 
就 会 具有 很 好 的 前 景 。 


6 高 并 发 的 函数 式 语 言 
Erlang 语言 诞生 于 1986 年 ， 最 初 是 由 爱立信 公司 设计 ， 用 于 电信 产品 的 快速 开发 ， 支 


持 大 型 、 软 实时 、 可 移植 、 高 并 发 、 分 布 式 、 容 错 、 持 续 运 行 和 非 停机 的 代码 热 奉 换 应 用 系 
统 的 构建 ， 适 合 开发 运行 在 多 核 集群 上 的 高 伸缩 性 的 系统 。 随 着 Erlang 虚拟 机 性 能 的 不 断 


Erlang 
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提升 ,1997 年 Erlang 已 成 为 适合 编写 大 规模 工业 产品 的 语言 .1998 年 起 , Open-source Erlang?” 
开源 组 织 发 布 开 源 版 本 ， 目 前 版 本 是 R14B。 与 此 同时 ，Erlang 编程 工具 和 领域 函数 库 随 之 
发 展 ， 为 用 户 提供 了 良好 的 编程 环境 。 引 文 [28] 预 言 Erlang 将 成 为 一 个 非常 重要 的 语言 ， 也 
许 就 是 下 一 代 的 Java 语言 。 


Erlang 语言 继承 了 Prolog 语言 的 函数 式 特征 以 及 EriPascal 和 Ada 语言 的 并 发 、 分 布 和 
异常 处 理 机 制 。 并 行 部 分 遵照 基于 消息 传递 实现 并 发 驱动 的 Actor RAPS, Erlang 程序 以 
字 节 码 在 虚拟 机 中 解释 执行 ， 具 有 跨 平台 性 。Erlang 适合 电信 、WEB 服务 、 软 实时 数据 库 
等 应 用 的 开发 ， 但 不 适合 以 性 能 为 首要 需求 的 应 用 ， 例 如 图 像 处 理 和 信号 处 理 等 。 


Erlang 的 并 发 执行 单元 为 特殊 的 轻 量 进程 ,而 不 是 操作 系统 的 进程 和 线程 。 FEF 
派生 轻 量 级 进程 来 指定 并 发 执行 的 任务 。Erlang 进程 调度 的 上 下 文 切 换 的 开销 低 , 保证 了 高 
并 发 情况 下 Erlang 应 用 的 运行 效率 。 


在 降低 多 核 编程 复杂 性 的 方面 ， 作 为 函数 式 语言 ，Erlang 进程 并 发 执行 期 间 ， 数 据 访问 
区 只 包括 私有 栈 和 私有 堆 ， 这 完全 消除 了 程序 员 为 确保 正确 性 而 对 共享 内 存 访问 进行 加 锁 / 
解锁 的 麻烦 。Erlang 进程 之 间 唯 一 的 通信 方法 是 消息 传递 ， 不 采用 共享 内 存 的 方式 ， 只 要 知 
道 一 个 进程 的 名 字 (pid)， 就 可 以 向 其 发 送 消息 。 进 程 也 可 以 在 任何 时 候 接收 消息 。 这 种 村 
素 的 做 法 让 系统 更 加 简单 , 也 有 良好 的 性 能 扩展 。 另 外 , Erlang 程序 中 的 变量 只 能 单 次 赋值 ， 
这 便于 调试 程序 错误 也 避免 变量 共享 带 来 的 锁 操 作 。Erlang 编程 中 , 程序 员 无 需 考 虑 并 行 编 
程 中 最 容易 出 错 的 和 复杂 的 问题 ， 包 括 锁 、 互 斥 量 、 信 号 量 和 同步 原 语 等 ， 负 载 平 衡 和 消息 
机 制 的 实现 也 完全 由 运行 时 系统 负责 。 


-module(geometry). 
-export([area/1]). 


实时 性 方面 ，Erlang 的 调度 考虑 了 公 
平 性 ,不 允许 某 个 进程 长 时 间 阻 塞 机 器 。 
Erlang 采用 的 时 间 受 限 的 垃圾 自动 回收 技 
术 也 不 会 长 时 间 阻 塞 系 统 。Erlang 异常 处 
理 机 制 可 以 监视 表达 式 的 计算 、 进 程 的 行 
为 和 未 定义 函数 的 调用 等 。 Erlang 的 
Link 和 Monitor 机 制 将 进程 连接 起 来 。 
某 个 进程 出 错 或 退出 时 ， 其 它 进 程 能 感 
知 。Erlang 虚拟 机 允许 程序 代码 在 运行 时 
能 够 得 到 更 改 ， 旧 的 代码 块 被 新 的 代码 块 
替代 。 在 新 旧 交 替 之 际 ， 两 个 版 本 的 代码 
可 以 同时 运行 ， 这 给 在 线 软件 纠 错 和 升级 


提供 了 可 能 ， 从 而 保证 满足 控制 系统 持续 
图 志 模 式 匹 号 代 癌 示例 


area({square, Side}) -> 
Side * Side; 
area({circle, Radius}) -> 
math:pi() * Radius * Radius; 
area({triangle, A, B, C}) -> 
S = (A+B +C)/2, 


math: sqrt(S*(S-A)*(S-B)*(S-C)); 
area(Other) -> 
invalid_object. 


示例 . 与 过 程式 语言 不 同 , Erlang 在 编程 风格 上 是 声明 式 的 。 图 7 展示 了 这 一 编程 风格 。 
示例 中 ， 避 免 使 用 分 支 语句 ， 转 而 采用 模式 匹配 实现 控制 流 的 转移 ， 运 行 时 系统 会 根据 形 参 
和 实 参 的 匹配 关系 自动 选择 相应 的 函数 执行 。 


Erlang 语言 发 展 至 今 已 是 一 门 成 熟 的 语言 ， 在 产业 界 和 学 术 界 都 存在 实际 的 应 用 。 
Open-source Erlang 开源 组 织 负责 Erlang 系统 的 维护 、 技 术 文 持 和 新 版 本 发 布 ， 为 程序 员 提 


E 在 计算 机 科学 中 ， Actor 模型 是 并 发 计算 的 数学 模型 ， 是 若干 并 发 系统 实现 的 理论 基础 。actor 作为 基本 
的 并 发 计算 对 象 ， 对 收 到 的 消息 作出 响应 ， 并 局 部 决策 如 何 对 下 一 条 收 到 的 消息 作出 响应 。 也 能 创建 更 多 
的 actors， 发 送 更 多 的 消息 
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供 了 丰富 的 编程 工具 和 函数 库 等 。 


产能 方面 , 对 于 有 函数 式 语 言 编 程 背 景 的 程序 员 , 在 涉及 分 布 式 和 容错 处 理 的 系统 开发 
H, H Erlang 所 花 的 时 间 比 用 C 少 80%， 相 比 于 命令 式 语言 ， 用 声明 式 语 言 编 写 以 控制 为 
主 的 电信 应 用 更 加 容易 ， 代 码 行 数 更 少 踢 。Open-source Erlang 为 程序 员 提 供 了 丰富 的 编程 
工具 和 函数 库 。Erlang 的 变量 单 次 赋值 、 静 态 /动态 类 型 检查 、 异 常 处 理 机 制 、 垃 圾 自动 回 
收 、 进 程 的 连接 和 监视 都 增强 了 应 用 程序 的 正确 性 保证 。 


借助 先天 的 语言 特性 和 实现 机 制 ，Erlang 在 大 规模 分 布 式 并 发 控制 、 错 误 检 查 和 容错 、 
代码 热 替 换 和 快速 开发 软 实时 控制 系统 方面 有 明显 的 优势 ,其 可 移植 性 、 使 用 的 广泛 性 和 开 
源 资源 方面 也 有 不 错 的 表现 。 由 于 Erlang 是 通过 中 间 码 解释 执行 的 ， 其 性 能 进 于 以 本 地 代 
码 (native code) 直接 执行 的 语言 ， 通 过 将 Erlang 程序 中 性 能 关键 的 部 分 以 本 地 代码 执行 或 
改 用 其 它 语言 编写 能 解决 性 能 问题 。Erlang 的 进程 由 程序 员 显 式 控制 , 保持 灵活 的 同时 也 给 
程序 员 带 来 了 负担 。 


7 PGAS 语言 


分 割 全 局 地 址 空间 (PGAS) 语言 出 现 于 1998、1999 年 ， 是 一 种 混合 的 编程 模型 ， 与 共 
享 内 存 模型 很 接近 。PGAS ! k 享 的 数据 空间 在 各 个 线程 之 间 进 行 逻辑 的 划分 〈 通 过 显 式 
的 数据 分 布 )， 因 此 从 一 个 线程 的 角度 ， 共 享 数据 又 分 为 本 地 的 共享 数据 和 远程 共享 数据 。 
PGAS 抽象 出 计算 平台 上 的 访 存 不 均匀 性 ， 让 用 户 描 述 计 算 和 任务 的 亲 和 关 系 ， 以 提高 性 能 
的 可 扩展 性 。 在 可 编程 性 方面 ,全 局 地 址 空间 的 使 用 简化 了 用 户 编程 ， 远 程 的 共享 数据 访问 
被 翻译 成 通信 ， 有 具体 地 调用 底层 的 单 边 通信 库 ， 比 如 SHMEM、GASNet、ARMCI、DCMF 
或 LAPI。 静 态 分 割 的 全 局 地 址 空间 语言 具有 单程 序 流 多 数据 流 的 并 行 模式 ， 包 括 : UPC, 
Co-array Fortran 和 Titanium。 有 异步 全 局 分 割地 址 空间 编程 模型 (APGAS )， 是 在 单程 序 流 多 
数据 流 执行 模型 之 外 ， 增 加 了 细 粒 度 的 任务 并 行 的 支持 ， 包 括 IBM 的 X10, w (Cray) 


的 Chapel 等 语言 。 


~ 


下 面 我 们 分 别 介绍 典型 的 静态 PGAS 语言 和 异步 PGAS 语言 。 
7.1 UPC 


UPC 是 一 个 广 为 受 到 关注 和 研究 的 PGAS 语言 。UPC 的 全 局 地 址 空间 、 共 享 指针 的 设 
计 思 想来 自 于 split-c， 后 者 是 parallel C 的 变种 。UPCW 语 言 主要 针对 传统 的 高 性 能 计算 ， 
支持 共享 存储 平台 或 者 分 布 式 存储 平台 。UPC 最 早 的 语言 规范 V0.9 在 1999 年 5 月 份 发 表 ， 
在 2000 年 的 UPC Workshop 上 公布 了 语言 规范 V1.0， 并 在 2003 年 完成 语言 规范 V1.1。 最 
近 的 语言 规范 是 V1.2， 发 布 于 2005 年 。 


UPC 的 存储 空间 分 为 私有 和 共享 两 部 
分 。 共 享 空 间 被 划分 为 多 个 分 段 ， 每 个 分 段 
亲 和 在 一 个 UPC 线程 上 。UPC 语言 支持 用 户 
定义 数组 的 分 布 (方式 )， 让 用 户 控制 程序 的 
局 部 性 。 每 个 UPC 线程 除了 具有 一 个 共享 空 
间 的 分 段 , 还 具有 自己 的 私有 数据 空间 。UPC 
中 对 共享 空间 的 访问 均 通 过 共享 指针 进行 ， 如 图 8 所 示 。 


存储 一 致 性 模型 方面 ，UPC 提供 顺序 一 致 性 和 放松 的 一 致 性 两 种 模型 。 前 者 是 为 方便 


全 局 地 址 空间 


图 8.UPC 共享 地 址 空间 示意 图 
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局 分 割地 址 空间 编程 模型 CAPGAS). 
的 访 存 不 均匀 性 ， 是 若干 驻 留 
到 缓存 一 致 的 计算 单元 
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展 到 商业 服务 器 应 用 。 在 X10 F, 用 户 可 以 通过 ateach 或 者 async 关键 字 动 态 派生 新 的 
活动 。 例 如 ， ateach 语句 能 够 将 任务 按照 指定 的 数组 元 素 的 亲 和 性 〈 或 者 一 个 索引 集 映 
射 ) 分 配给 对 应 的 库 所 ; async 则 支持 细 粒 度 动态 任务 ， 以 及 计算 与 通信 的 重印 。 


def run() 
{ 
finish async{ 
val c = clock.make(); 
val D_Base = Dist.makeUnique(D.places()); 
val diff = Array_make[Real] (D_Base), 
scratch = Array.make[Real] ( D_Base ); 
ateach ( z in D_Base ) clocked(c) 
do { 
diff( z ) = 
for( p in D | here ){ 
Temp(p) = A(stencil_1(p)).reduce(Double.+, 0.0) / 4; 
diff(z) = Math.max( diff(z), Math.abs(A(p) - Temp(p))); 
} 
next, 
A(D | here) = Temp(D | here); 
reduceMax(z, diff, scratch); 
} while ( diff(z) > epsilon ); 


图 9. 热 传递 应 用 程序 示例 


图 9 的 X10 程序 中 ， 根 活动 创建 了 一 个 同步 钟 c， 数 组 diff 与 scratch 被 分 布 到 既 
定 的 place 空间 上 。 然 后 以 单程 序 流 多 数据 流 的 风格 对 分 布 在 本 地 的 数据 进行 stencil 
计算 和 本 地 归 约 , 用 同步 钟 栅 障 同步 后 进行 全 局 归 约 。 这 个 过 程 一 直 迭 代 下 去 直至 精度 得 到 
满足 


目前 ，X10 并 不 支持 任务 的 动态 负载 平衡 。 论 文 [39] 在 X10 上 扩展 了 适应 性 的 任务 调度 
策略 , 在 work-first 与 help-first 两 种 任务 窃取 策略 中 选择 。 文 章 [38] 借 鉴 了 Sequoia 
的 部 分 概念 ， 提 出 了 层次 化 的 place 的 概念 (HPT Hierarchical Place Trees)， 除 了 数据 分 布 
隐 含 的 垂直 通信 , HPT 还 支持 显 式 的 同步 和 异步 数据 传输 。 这样, HPT 程序 能 适应 通用 GPU 
加 速 器 ， 也 能 更 好 地 映射 到 存储 层次 增加 的 普通 多 核 平台 。 


在 正确 性 方面 ,根据 引文 [37]， 用 X10 编写 的 程序 能 够 保证 静态 类 型 安全 、 存 储 安全 点 
指针 安全 。 同 时 ，X10 提供 了 对 异常 处 理 的 支持 。 在 死 锁 与 数据 竞争 方面 ，X10 设计 了 同步 
钟 clock， 用 户 只 要 遵循 简单 的 语法 规则 就 可 以 避免 死 锁 与 数据 竞争 ， 即 只 使 用 async, 
finish, at, atomic, clock 的 X10 程序 不 会 导致 死 锁 。 


综 上 所 述 ，X10 在 并 行 编程 模型 方面 有 不 少 技术 亮点 引起 学 术 界 的 关注 。 但 是 由 于 语言 
庞大 ， 编 译 系统 的 开发 耗 时 ， 影 响 了 其 推广 。 其 次 ，X10 语言 是 基于 类 Java、C++ 的 扩展 ， 
虽然 其 串 行 部 分 类 似 于 C， 对 于 熟悉 C 与 面向 ey 来 说 便于 学 习 ， 但 是 毕竟 它 属于 
一 个 新 语言 ， 这 对 于 其 推广 也 是 不 利 的 。 如 何 能 适应 更 多 的 应 用 领域 ， 并 实现 与 现 有 语言 的 
良好 的 互 操作 ， 是 影响 X10 发 展 的 重要 因素 。 
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本 文 介绍 了 多 种 流行 的 并 行 编程 模型 ,我们 可 以 看 到 这 样 的 趋势 ，(1). 应 用 驱动 变革 。 
片上 并 行 系统 的 出 现 ， 对 桌面 和 商业 应 用 领域 影响 最 深远 。 应 用 行为 特征 的 变化 ， 使 得 编程 
语言 和 编译 技术 必须 要 处 理 更 不 规则 的 并 行 性 。 高 吞吐 的 应 用 需求 也 催生 了 像 Erlang 这 样 


i 


的 编程 语言 。(2). 可 编程 性 是 业界 的 追求 。 在 芯片 的 多 核 时 代 , 程序 员 仍然 希望 能 够 享受 “ 免 
费 的 性 能 午餐 ”， 因 此 最 受 关注 的 就 是 自动 并 行 化 技术 。 但 是 我 们 看 到 基于 制导 的 OpenMP 


语言 在 对 大 型 实际 应 用 的 并 行 化 上 仍 存 在 较 大 问题 , DSWP 模型 近年 来 虽 颇 为 活跃 , 但 是 


于 还 无 法 通过 下 载 得 到 该 模型 可 供 使 用 的 编译 器 ， 而 且 相 关 文章 的 很 多 实验 均 为 手工 完成 ， 


高 可 编程 


考虑 到 实际 的 程序 分 析 技 术 的 能 力 ， 该 模型 的 实际 效果 目前 还 有 待 证 实 。 在 并 行 语言 的 设 
计 中 ， 引 入 面向 对 象 、 泛 型 等 现代 语言 特征 ， 引 入 函数 式 语 言 特征 ， 把 存储 和 计算 的 逻辑 单 
立 和 物理 单位 进行 分 离 ,， 提供 高 层 的 并 行 结构 和 语言 机 制 , 提供 共享 内 存 的 存储 抽象 都 是 提 
站 


的 重要 手段 。(3). 在 多 核 的 复杂 存储 和 互 连 结构 上 , 数据 移动 是 程序 优化 的 重点 。 


MPI, PGAS 和 OpenCL 把 数据 移动 的 优化 交 给 用 户 。OpenCL 可 以 统一 异 构 平 台 的 节点 内 


编程 ， 只 是 编程 层次 较 低 。PGAS 语言 能 更 好 地 控制 数据 和 计算 的 杀 和 性 ， 适 合 编写 高 性 能 
的 支撑 软件 ， 具 有 统一 集群 编程 的 潜力 。 而 像 TBB 这 类 面向 大 众 的 编程 语言 也 通过 任务 调 
度 和 隐 式 数据 分 布 的 结合 来 文 持 数据 重用 。(4). 复杂 的 多 核 、 众 核 结构 上 的 跨 平 台 的 性 能 调 
优 受到 关注 。 在 这 里 ， 机 器 抽象 具有 重要 的 意义 ， 编 程 模型 也 需要 文 持 自动 或 手工 的 性 能 调 
优 。Sequoia 语言 基于 存储 层次 树 的 机 器 抽象 ， 把 源 程序 与 机 器 映射 文件 分 离 ， 提 供 了 跨 平 
台 的 性 能 可 移植 性 。 类 似 的 思想 也 被 用 到 Habanero(X10) 的 HPT 扩展 上 。 


可 以 设想 , 未 来 的 并 行程 序 设计 一 定 是 多 种 模型 和 语言 共存 的 状态 , 每 一 种 模型 和 语言 
有 自己 适用 的 应 用 类 型 和 体系 结构 。 在 这 场 变 革 中 , 对 于 每 一 个 参与 者 都 是 机 会 与 挑战 并 存 。 
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